13. MDP(第 1 部分)

MDP(第 1 部分)

通常,状态空间 \mathcal{S} 是指所有非终止状态集合。

在连续性任务(例如在视频中介绍的回收任务)中,就相当于所有状态集合。

在阶段性任务中,我们使用 \mathcal{S}^+ 表示所有状态(包括终止状态)集合

动作空间 \mathcal{A} 是指智能体可以采取的动作集合。

如果在某些状态下,只能采取部分动作,我们还可以使用 \mathcal{A}(s) 表示在状态 s\in\mathcal{S} 下可以采取的动作集合。